前面幾篇文章介紹了簡單線性迴歸模型(SLM)與廣義線性迴歸模型(GLM)的模型長相及模型參數估計過程。本文利用兩種模型對已經有標籤的資料分群,比較在不同的資料環境之下,模型會有那些不一樣的表現。
對資料做分析前,需先明白模型對不同資料的特點,分析、處理資料,再挑選合適的模型(或學習器 Learner)進行建模,訓練、驗證與評比。若模型的效果不佳,還可能需要重複整個過程。資料本身有許多需要注意點,例如:樣本大小、變數的意涵、變數間的關聯性、資料變異程度、資料為離散或連續等細節。以下利用分群之準確率比較簡單線性迴歸與廣義線性迴歸模型在面對不同資料下的優劣與特性。
比較之前,先以著名的已分群的鴛尾花資料集(iris dataset)嘗試看看兩模型的分群效果。鴛尾花資料集取自UCI Machine Learning Repository網站,資料如下圖,有 5 行,即總共 5 個變數,150 筆資料。
鴛尾花資料集說明如下, 5 個變數中有 x1 到 x4 共 4 個解釋變數,而 y 為反應變數,為分群的目標,其中有 3 種鴛尾花,分別為 Setosa、Versicolour 與 Virginica,各佔全體資料數量的 1/3 。
資料來源:
Fisher, R. (1936). Iris [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C56C76.